text.similarity                package:unknown                R Documentation

	Clculo de similaridade entre dois textos

Description:

	A funo text.similarity calcula o ndice de similaridade entre dois textos desenvolvido por Sigelman e Buell (2004).


Usage:

     text.similarity(text.a, text.b, language = "portuguese")

Arguments:

	text.a:  um vetor de tipo character com um texto.
	text.b:  um vetor de tipo character com outro texto.
	language: indica o idioma dos textos a serem comparados. Temos 3 opes: 'portuguese' para textos em lngua portuguesa; 'english' para  textos em lngua inglesa; e 'spanish' para textos em lingua espanhola.

Details:

     

Value:

     A funo retorna uma lista de dois elementos: 

  similar: contm o valor do ndice de similaridade.

  freq:  um dataframe onde a coluna 'termos' possui os termos utilizados no clculo do ndice; 'n.termos.a' a frequncia de cada termo no primeiro vetor; 'n.termos.b' a frequncia de cada termo no segundo vetor; 'pa' a porcentagem de cada termo no primeiro vetor; e 'pb' a porcentagem de cada termo no segundo vetor. 


Warning:



Note:



Author(s):

     Maurcio Izumi (mauricio.izumi@usp.br)

References:

     Sigelman, L. and Buell, E. H. (2004). Avoidance or engagement? issue convergence in us presidential campaigns, 19602000. American Journal of Political Science, 48(4):650661.

See Also:


Examples:

## Exemplo com textos em portugus (trechos de discursos do Lula)

texto.a <- c("Meus companheiros e minhas companheiras, Excelentssimos senhores chefes de Estado presentes nesta solenidade, Trabalhadores e trabalhadoras do meu Brasil, Meu querido companheiro Jos Alencar, meu vice-presidente da Repblica, Minha companheira querida, Dona Mariza, esposa do Jos Alencar, Minha querida esposa Marisa que, juntos, j partilhamos muitas derrotas e, por isso, hoje, estamos realizando um sonho que no  s meu, mas um sonho do povo deste pas, que queria mudana.")
texto.b <- c("Sou profundamente grato  compreenso da dona Marisa Letcia que, nesses quatro anos, esteve junto comigo, nos bons e nos maus momentos. E, certamente, Jos Alencar e eu somos gratos tambm  dona Mariza, a esposa do Jos Alencar, porque certamente nos momentos difceis ela era o ombro, o consolo e a conscincia poltica para nos afirmar: Continuem lutando...")

similar.lula <- text.similarity(texto.a, texto.b, language = "portuguese")
similar.lula

## Exemplo com textos em ingls (trechos de discurso do Obama)

texto.a <- c("I said then and believe now that Saddam Hussein was a ruthless dictator who craved weapons of mass destruction but posed no imminent threat to the United States")
texto.b <- c("I said that Saddam Hussein was a ruthless man, but that he posed no imminent and direct threat to the United States. I said that a war in Iraq would take our focus away from our efforts to defeat al-Qaeda.")

similar.obama <- text.similarity(texto.a, texto.b, language = "english")
similar.obama


## Exemplo com  textos em espanhol (trechos de "El amor en los tiempos del clera" de Gabriel Garca Mrquez)

texto.a <- c("Alcanz a reconocerla en el tumulto a travs de las lgrimas del dolor irrepetible de morirse sin ella, y la mir por ltima vez para siempre jams con los ojos ms luminosos, ms tristes y ms agradecidos que ella no le vio nunca en medio siglo de vida en comn, y alcanz a decirle con el ltimo aliento: - Slo Dios sabe cunto te quise.")
texto.b <- c("Florentino Ariza haba pensado llevarle los setenta folios que entonces poda recitar de memoria de tanto leerlos, pero luego se decidi por media esquela sobria y explcita en la que slo prometi esencial: su fidelidad a toda prueba y su amor para siempre.")

similar.ggm <- text.similarity(texto.a, texto.b, language = "spanish")
similar.ggm

